AI资讯新闻榜单内容搜索- LLM

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力，但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。

来自主题: AI技术研报

5757 点击 2024-06-28 11:23

“金凤花”智能体与定制认知架构的威力

很多人认为智能体（agent）是生成式人工智能的未来趋势。但对于智能体应该如何发展大家却看法不一。基于简单的链式流程的智能体还不够灵活或强大，没有真正利用好 LLM 范式，而完全自主的智能体往往又会失效，没法用。在二者之间找到平衡的“金凤花”智能体正赢得青睐。

来自主题: AI资讯

9004 点击 2024-06-25 17:30

Is Scaling All You Need? LLM收益递减，AI小厂难活命

在GPT-4发布后14.5个月里，LLM领域似乎已经没什么进步了？近日，马库斯的一句话引发了全网论战。大模型烧钱却不赚钱，搞AI的公司表示：难办！

来自主题: AI资讯

7521 点击 2024-06-21 14:14

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报

9710 点击 2024-06-17 19:35

万字综述大模型高效推理：无问芯穹与清华、上交最新联合研究全面解析大模型推理优化

近年来，大语言模型（Large Language Models, LLMs）受到学术界和工业界的广泛关注，得益于其在各种语言生成任务上的出色表现，大语言模型推动了各种人工智能应用（例如ChatGPT、Copilot等）的发展。然而，大语言模型的落地应用受到其较大的推理开销的限制，对部署资源、用户体验、经济成本都带来了巨大挑战。

来自主题: AI技术研报

11533 点击 2024-06-14 10:35

用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

大型语言模型（LLM）的一个主要特点是「大」，也因此其训练和部署成本都相当高，如何在保证 LLM 准确度的同时让其变小就成了非常重要且有价值的研究课题。

来自主题: AI技术研报

10628 点击 2024-06-11 10:06

To Believe or Not to Believe？DeepMind新研究一眼看穿LLM幻觉

DeepMind发表了一篇名为「To Believe or Not to Believe Your LLM」的新论文，探讨了LLM的不确定性量化问题，通过「迭代提示」成功将LLM的认知不确定性和偶然不确定性解耦。研究还将新推导出的幻觉检测算法应用于Gemini，结果表明，与基线方法相比，该方法能有效检测幻觉。

来自主题: AI技术研报

10448 点击 2024-06-08 19:59

单个4090可推理，2000亿稀疏大模型「天工MoE」开源

在大模型浪潮中，训练和部署最先进的密集 LLM 在计算需求和相关成本上带来了巨大挑战，尤其是在数百亿或数千亿参数的规模上。为了应对这些挑战，稀疏模型，如专家混合模型（MoE），已经变得越来越重要。这些模型通过将计算分配给各种专门的子模型或「专家」，提供了一种经济上更可行的替代方案，有可能以极低的资源需求达到甚至超过密集型模型的性能。

来自主题: AI技术研报

10447 点击 2024-06-04 17:59

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。

来自主题: AI技术研报

10320 点击 2024-06-04 17:45

解决Transformer根本缺陷，CoPE论文爆火：所有大模型都能获得巨大改进

即使最强大的 LLM 也难以通过 token 索引来关注句子等概念，现在有办法了。

来自主题: AI资讯

9792 点击 2024-05-31 19:10